AI资讯新闻榜单内容搜索-Learning W

Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

智元机器人的办公室里，最近员工们一上班就能看到机器人熟练地切着水果：这么全面的能力是如何做到的？答案是直接在真实环境中搞大规模分布式强化学习训练。它们使用的是全新的具身智能训练范式：面向通用机器人策略的分布式多机强化学习（LWD）。这一套技术捅破了当前VLA的「天花板」。

来自主题: AI技术研报

6655 点击 2026-04-30 13:52

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

结合RLHF+RLVR，8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法，RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型奖励思维的强化学习）。

来自主题: AI技术研报

10511 点击 2025-09-28 23:03

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像"人"

近年来, 大语言模型 (LLM) 在数学、编程等 "有标准答案" 的任务上取得了突破性进展, 这背后离不开 "可验证奖励" (Reinforcement Learning with Verifiable Rewards, RLVR) 技术的加持。RLVR 依赖于参考信号, 即通过客观标准答案来验证模型响应的可靠性。

来自主题: AI资讯

8933 点击 2025-07-31 11:02

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR（Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报

10605 点击 2025-06-27 10:03

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

在人工智能领域，推理能力的进化已成为通向通用智能的核心挑战。近期，Reinforcement Learning with Verifiable Rewards（RLVR）范式下涌现出一批「Zero」类推理模型，摆脱了对人类显式推理示范的依赖，通过强化学习过程自我学习推理轨迹，显著减少了监督训练所需的人力成本。

来自主题: AI技术研报

9202 点击 2025-05-08 14:49

AI资讯新闻榜单内容搜索-Learning W

Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像"人"

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世